Mô hình mã hóa dự đoán tuyến tính LPC i 

Một phần của tài liệu Thực thi thời gian thực mô hình thuật toán MELP trên bộ xử lý tín hiệu số TMS320C5509 (Trang 74)

Hình A-1: Mô hình tạo tiếng nói LPC

[4] LPC dựa trên mô hình đơn giản hóa để tạo tiếng nói, như mô tả trong hình A-1. Mô hình này xuất phát từ quan sát những tính chất cơ bản của tín hiệu tiếng nói và là một sự nỗ lực để mô phỏng cơ chế tạo tiếng nói của con người. Những kết hợp của thanh quản, khẩu hình môi được thể hiện trong bộ lọc tổng hợp. Tín hiệu đầu vào của bộ lọc hoặc tín hiệu kích thích được mô hình hóa như

là các chuỗi xung (tiếng nói có âm) hoặc các nhiễu ngẫu nhiên (tiếng không âm). Do đó, tùy vào trạng thái tín hiệu là có âm hay không âm, một công tắc chuyển sẽđược thiết lập để lựa chọn đầu vào phù hợp. Mức năng lượng của đầu ra được

điều khiển bởi tham số gain.

Các mẫu tiếng nói được tách thành các khung rời nhau, và với độ dài khung đủ lớn thì các thuộc tính của tín hiệu sẽ gần như không đổi. Trong mỗi khung, các tham số của mô hình được ước lượng từ các mẫu tín hiệu, bao gồm:

- Voicing: xác định xem khung tiếng nói này là có âm hay không âm. - Gain: liên quan chủ yếu đến mức năng lượng của khung.

- Hệ số bộ lọc: đặc tảđáp ứng của bộ lọc tổng hợp.

- Pitch period: đối với khung có âm, là khoảng thời gian giữa các xung kích thích liên tiếp.

Quá trình ước lượng tham số sẽ lặp đi lặp lại ở các khung tạo thành các thông tin đại diện cho khung. Như thế, thay vì phải truyền đi các mẫu PCM, ta chỉ cần truyền đi các tham số của mô hình. Nhờ việc sắp xếp cẩn thận các bit cho từng tham sốđể giảm thiểu biến dạng ta sẽ có được tỉ lệ nén rất cao.

Bộ tạo chuỗi xung Công-tắc chuyển có âm/không âm Tạo nhiễu trắng Lọc tổng hợp Hệ số lọc Gain Tiếng nói Pitch Period Voicing

Việc ước lượng các tham số là trách nhiệm của bộ mã hóa. Bộ giải mã sẽ

nhận các tham số này và sử dụng mô hình tạo tiếng nói để tổng hợp ra tiếng nói. Mô hình này sẽ hoạt động thế nào khi mà dạng sóng đầu ra hoàn toàn khác so với tín hiệu ban đầu? Trên thực tế, dạng sóng đầu ra sử dụng cùng một tập hợp tham số còn các điều kiện lọc ban đầu thì khác nhau do nhiễu trắng được tạo ngẫu nhiên. Mật độ phổ của tiếng nói ban đầu đã được bộ lọc tổng hợp thu giữ

lại, vì thế mật độ phổ của tiếng nói tổng hợp khá gần với bản gốc nhờ vào phổ

phẳng của kích thích đầu vào. Cách tiếp cận này sẽ loại bỏ hết mọi thông tin pha của dạng sóng ban đầu mà chỉ giữ lại biên độ của phổ tần số. Âm thanh của đầu ra tổng hợp sẽ nghe giống như bản gốc, bởi vì đối với người nghe, pha có phạm vi tương đối thấp so với thông tin biên độ.

Dự đoán tuyến tính là một phương pháp thực hành của ước lượng phổ, ở đó mật độ phổ sẽ được giữ lại thông qua các hệ số, những hệ số này được sử

dụng để tạo thành bộ lọc tổng hợp. Bộ lọc tổng hợp sẽ tạo hình phổ phẳng của nhiễu đầu vào, để tạo ra mô phỏng của phổ ban đầu. Điều này chỉ đúng đối với kích thích nhiễu trong trường hợp không âm, tuy nhiên, đối với trường hợp có tiếng, đầu vào là chuỗi xung, là một chuỗi các xung cách đều, điều này lại vi phạm giả thiết của mô hình tự hồi quy. Trong mô hình tự hồi quy, tín hiệu kích thích có phổ phẳng, điều đó được thỏa mãn bởi nhiễu trắng hoặc một xung đơn lẻ. Đối với chuỗi các xung, phổ tương ứng khá là phẳng chỉ khi nào khoảng cách giữa các xung là đủ lớn. Sự vi phạm mô hình Tự hồi quy này đối với tín hiệu có âm là một trong những hạn chế cơ bản của mô hình LPC. Chuỗi xung cho kích thích được cho bởi công thức:

[ - ] i n iT      với [ ] 1, 0 0, 0 n n n      và T là chu kì, là một hằng số dương. Sử dụng

chuỗi xung tuần hoàn để tạo ra dạng sóng đầu ra tuần hoàn, khi đó tín hiệu đầu ra sẽ có mật độ phổ gần giống với tín hiệu có âm.

Do các hệ số của bộ lọc tổng hợp phải được lượng tử hóa và truyền đi, nên chỉ có một ít trong sốđó được tính toán để duy trì bit-rate thấp. Sử dụng dự đoán bậc 10 nói chung là đủđể thu được toàn bộ phổ cần thiết. Bậc dựđoán này là dùng cho các khung không âm. Đối với khung có âm thì ta cần sử dụng bậc cao hơn tùy thuộc vào tương quan của các mẫu khác nhau. Mô hình LPC giải quyết vấn đề này bằng cách sử dụng đầu vào là một chuỗi xung: nếu chu kì của kích thích đầu vào phù hợp với giá trị Pitch period ban đầu, thì chu kì của tiếng

nói tổng hợp với mật độ phổ tương tự như bản gốc. Theo cách này, ta sẽ tránh

được dựđoán bậc cao, đảm bảo mục tiêu bit-rate thấp.

Một phần của tài liệu Thực thi thời gian thực mô hình thuật toán MELP trên bộ xử lý tín hiệu số TMS320C5509 (Trang 74)

Tải bản đầy đủ (PDF)

(85 trang)